Evidências de Validade

Validade de Conteúdo, Construto e Critério
Análise de Dados Ambientais

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)

EVIDÊNCIAS DE

EVIDÊNCIAS DE

VALIDADE

DE INSTRUMENTOS DE AUTORRELATO

VALIDADE DE INSTRUMENTOS

O que é validade

Validade do teste avalia se o teste mede o que se propõe a medir

(Nunes & Primi, 2010; Urbina, 2007)

Julgamento integrado sobre o grau em que as evidências empíricas e a fundamentação teórica do teste suportam a adequação das interpretações e ações baseadas nos escores dos testes

(Messick, 1990)

O grau em que todas as evidências acumuladas corroboraram a interpretação pretendida dos escores de um teste

(AERA, APA, NCME, 2014, p. 11)

VALIDADE DE INSTRUMENTOS

VALIDADE DE INSTRUMENTOS

O que é validade

O grau em que todas as evidências acumuladas corroboraram a interpretação pretendida

dos escores de um teste

(AERA, APA, NCME, 2014, p. 11)

Validade é questão de grau

Validade é propriedade dos escores e não do teste per si.

VALIDADE DE INSTRUMENTOS

VALIDADE DE INSTRUMENTOS

Duas grandes correntes de validade

Modelo tripartite (AERA, APA, & NCME, 1966)

  • Conteúdo: Em que medida o teste engloba adequadamente o construto de interesse;
  • Construto: Em que medida a estrutura do construto está sendo respeitada empiricamente
  • Critério: Em que medida os escores do teste se associam de maneira adequada com variáveis externas VALIDADE DE INSTRUMENTOS

VALIDADE DE INSTRUMENTOS

Duas grandes correntes de validade

Modelo atual (AERA, APA, & NCME, 1999; 2014)

    1. Validade de Conteúdo
    1. Validade Baseada na Estrutura Interna
    1. Validade Baseada nas Relações com Medidas Externas
    • 3.1 Validade Convergente
    • 3.2 Validade Discriminante
    • 3.3 Validade de Critério
      • 3.3.1 Validade Concorrente
      • 3.3.2 Validade Preditiva
    1. Validade Baseada no Padrão de Resposta aos Itens
    1. Validade Consequencial VALIDADE DE INSTRUMENTOS

VALIDADE DE CONTEÚDO

VALIDADE DE CONTEÚDO

Em que medida e quão bem o teste avalia o construto de interesse

Procedimento em que se avalia:

    1. quão bem, em termos gramaticais, semânticos e idiomáticos, os itens foram construídos / adaptados
    1. se o conjunto de itens de faz parte do construto de interesse
    1. o quanto o construto de interesse está sendo adequadamente mensurado pelo conjunto de itens Processo mais importante na construção de um instrumento psicológico

VALIDADE DE CONTEÚDO

VALIDADE DE CONTEÚDO

Validade de conteúdo

  • Juízes Experts
  • População-Alvo
  • Deve ser realizado com fichas padronizadas de avaliação
  • Essas fichas devem ser pensadas de acordo com o tipo de concordância que você pretende avaliar VALIDADE DE CONTEÚDO

Diferentes tipos

VALIDADE DE CONTEÚDO

Tipo
Porcentagem de Concordância
Índice de Validade de Conteúdo
Razão de Validade de Conteúdo
Coeficiente de Validade de Conteúdo
Coeficiente de Correlação Intraclasse
Kappa de Cohen (dicotômico)
Kappa de Cohen ponderado (politômico)
Coeficiente de concordância de Kendall
Kappa de Fleiss
Bland-Altman

ESTRUTURA INTERNA

ESTRUTURA INTERNA

Todo instrumento reflete um construto

A estrutura empírica do instrumento reflete a estrutura teórica do construto?

  • Todo construto tem uma estrutura teórica que deve ser coberta pela medida
  • Burnout
    • Exaustão Emocional
    • Despersonalização
    • Baixa realização no trabalho ESTRUTURA INTERNA

ESTRUTURA INTERNA

Análise fatorial

  • Conjunto de técnicas de análise de dados que tem por objetivo reduzir um determinado número de itens a um número reduzido de variáveis latentes que explicam a covariância dos itens Spearman (1863-1945)

ESTRUTURA INTERNA

ESTRUTURA INTERNA

O que é uma variável latente

  • É uma variável que não é observada diretamente mas, sim, inferida a partir do padrão de relações existentes entre variáveis observadas

ESTRUTURA INTERNA

ESTRUTURA INTERNA

e itens gera agrupamentos

or acaso

eduzidos de Personalidade

Análise fatorial

  • Padrão de correlação d
  • Itens não se agrupam p
  • Exemplo Marcadores R
    • Conscienciosidade
    • Extroversão
    • Abertura à experiência
    • Socialização
    • Neuroticismo ESTRUTURA INTERNA

ESTRUTURA INTERNA

*Exemplos:** *Depressão

Tristeza Frequente Baixa Autoestima

Falta de sentido na vida

Problemas de alimentação

Apatia

Problemas de sono Choro constante Ideação suicida

ESTRUTURA INTERNA

ESTRUTURA INTERNA

Dois tipos distintos de Análise Fatorial

  • Exploratória
    • A estrutura fatorial é encontrada a partir do padrão de resposta aos itens
  • Confirmatória
    • A estrutura fatorial é determinada a priori, e os indicadores de ‘qualidade’ da medida indicarão se a estrutura testada é ou não é plausível

ESTRUTURA INTERNA

ESTRUTURA INTERNA

Formas de se avaliar a adequação da estrutura fatorial:

  • Agrupamento dos itens de acordo com o que é esperado teoricamente
  • Índices de adequação de ajuste
  • Medidas de confiabilidade ESTRUTURA INTERNA

CONFIABILIDADE

Confiabilidade / Fidedignidade / Precisão

  • Busca avaliar os erros da mensuração

  • Erro da mensuração: Qualquer flutuação nos escores resultantes de fatores relacionados ao processo de mensuração que são irrelevantes ao que está sendo medido (Anastasi & Urbina, 2000) Fidedignidade:

  • Reflete a qualidade dos escores do teste e indica o quanto eles são livres de erros

    • Erros relacionados ao teste, ao método de coletas, ao ambiente e/ou ao respondente Duas** ****formas**** ****principais:**
  • Consistência interna

  • Teste-reteste ESTRUTURA INTERNA

CONFIABILIDADE

Consistência interna

  • Busca investigar em que medida o padrão de resposta aos itens é preciso;
  • Baseia-se em medidas de correlação entre itens; ESTRUTURA INTERNA

CONFIABILIDADE

Split-Half (Método das Metades)

  • Spearman-Brown (1910) ESTRUTURA INTERNA

CONFIABILIDADE

Split-Half (Método das Metades)

  • Spearman-Brown (1910) Item** ****4**

Item** ****1**

Item** ****2**

Item** ****3**

Item** ****5**

Item** ****6**

ESTRUTURA INTERNA

CONFIABILIDADE

Split-Half (Método das Metades)

  • Spearman-Brown (1910) Alta correlação entre as partes

ESTRUTURA INTERNA

CONFIABILIDADE

Críticas ao método Split-Half

  • Decisão de como dividir o teste ficava a cargo do pesquisador
  • Dependendo da forma como o teste fosse dividido o coeficiente de fidedignidade mudava
  • Não dá pra ter confiança num teste de fidedignidade que não é preciso e estável (Brownell, 1937; Kuder & Richardson, 1937)

ESTRUTURA INTERNA

CONFIABILIDADE

KR-20

  • Kuder e Richardson (1937) ESTRUTURA INTERNA

CONFIABILIDADE

KR-20 (Kuder & Richardson, 1937)

  • Decisão de como dividir o teste ficava a cargo do pesquisador
  • Dependendo da forma como o teste fosse dividido o coeficiente de fidedignidade mudava
  • Não dá pra ter confiança num teste de fidedignidade que não é preciso e estável (Brownell, 1937; Kuder & Richardson, 1937)

ESTRUTURA INTERNA

CONFIABILIDADE

KR-20 (Kuder & Richardson, 1937)

  • Primeira medida de consistência interna desenvolvida
  • Utilizado em testes dicotômicos
  • Testes de desempenho (Acerto e erro)
  • Estimativa aproximada da média da correlações entre todos os itens ESTRUTURA INTERNA

CONFIABILIDADE

Alfa de Cronbach (Cronbach, 1951)

ESTRUTURA INTERNA

CONFIABILIDADE

Alfa de Cronbach (Cronbach, 1951)

  • Amplia o teste KR-20 para testes politômicos
  • Estimativa a refere-se à média de todas as possibilidades do método *Split-**Half*
  • Medida mais amplamente usada, mas com problemas
    • Pressuposto da tau-equivalência;
    • Lower-bound to reliability → Puxa a fidedignidade para baixo (Sijtsma, 2009)
      • De 0,6 a 11,1% (Green & Yang, 2009) ESTRUTURA INTERNA

CONFIABILIDADE

Alfa de Cronbach (Cronbach, 1951)

*Equivalência Tau (--**equivalence)*

  • Todos os itens apresentam a mesma “importância” para o construto Desaconselho o uso do Alfa

ESTRUTURA INTERNA

Itens fictícios de uma Escala de Depressão
01. Eu me mataria se eu tivesse oportunidade
02. Tenho chorado mais do que o de costume

CONFIABILIDADE

CONFIABILIDADE

Outras alternativas (Congeneric models)

  • Métodos de estimação que consideram a importância do item, através das cargas fatoriais
  • Composite reliability (CR; Fornell & Lacker, 1981; Raykov, 1997)
  • Ômega de McDonald (; McDonald, 1999)
  • Greatest Lower-Bound (GLB)
  • Guttman´s  CONFIABILIDADE

CONFIABILIDADE

Consistência Interna (, CR, )

  • Técnicas dependentes do número de itens do fator;
    • Instrumentos com muitos itens por fator tendem a ter consistência interna elevada
    • Instrumentos com poucos itens por fator tendem a ter consistência interna baixa CONFIABILIDADE

CONFIABILIDADE

Teste-reteste

  • Estudos longitudinais (Dados coletados mais de uma vez no tempo)
  • Estudos transversais (coleta duplicada apenas para testar a precisão da medida)*
  • Custo benefício não parece compensar
  • Como se realiza:
  • Correlação entre os escores do construto nos diferentes momentos CONFIABILIDADE

CONFIABILIDADE

  • Desafios / limitações
  • Tempo para administração
  • Deve ser suficiente para encontrar os erros da mensuração, mas que não reflita alterações legítimas no construto
  • Raciocínio lógico matemático (Crianças de 5 anos, 6 meses de intervalo) Memória → Tempo não muito curto e também não muito longo

Não é apropriado para construtos instáveis (e.g., humor)

CONFIABILIDADE

CONFIABILIDADE

Fidedignidade não garante validade

“Os escores do teste podem ser relativamente livres de erros de mensuração, e ainda assim,

não serem úteis como base para as inferências que precisamos fazer”

(Urbina, 2007, p. 159)

Validade

Fidedignidade

CONFIABILIDADE

CONFIABILIDADE

Fidedignidade não garante validade

“Os escores do teste podem ser relativamente livres de erros de mensuração, e ainda assim,

não serem úteis como base para as inferências que precisamos fazer”

(Urbina, 2007, p. 159)

CONFIABILIDADE

RELAÇÕES COM MEDIDAS EXTERNAS

RELAÇÕES COM MEDIDAS EXTERNAS

§

e

e

§

a

se associam de maneira teoricamente

belece com outros construtos (Geisenger, 1992;

Avalia em que medida os escores do test

sperada com medidas externas

Rede nomológica (Cronbach & Meehl, 1955).

§ Refere-se à rede de relações que o construto est Messick, 1980).

CONFIABILIDADE

RELAÇÕES COM MEDIDAS EXTERNAS

§

e

e

§

a

se associam de maneira teoricamente

belece com outros construtos (Geisenger, 1992;

Avalia em que medida os escores do test

sperada com medidas externas

Rede nomológica (Cronbach & Meehl, 1955).

§ Refere-se à rede de relações que o construto est Messick, 1980).

CONFIABILIDADE

RELAÇÕES COM MEDIDAS EXTERNAS

Avalia em que medida os escores do teste se associam de maneira teoricamente esperada com medidas externas

  • Convergente
  • Discriminante
  • Critério
    • Concorrente
    • Preditiva CONFIABILIDADE

VALIDADE CONVERGENTE

Convergente** ****negativa**

Dois instrumentos que avaliam construtos opostos - otimismo e depressão

Convergente** ****positiva**

Dois instrumentos que avaliam construtos semelhantes - estresse e ansiedade

Em que medida, instrumentos que mensuram construtos semelhantes se associam de acordo com o esperado.

CONFIABILIDADE

VALIDADE CONVERGENTE

Burnout

Ansiedade

Estresse

Afetos Negativos

Depressão

Validade** ****convergente**** ****positiva**

  • Espera-se que o nível de correlação seja moderada (0,40 > r < 0,70)

  • R2 = 0,49 (49%) CONFIABILIDADE

Problematização

Ao desenvolver ou validar escala para mensuração de engajamento no trabalho, seria

plausível ter como medidas externas escalas de autoeficácia ocupacional e de produtividade.

CONFIABILIDADE

VALIDADE CONVERGENTE

Problematização

Pessoas que apresentam altos níveis autoeficácia ocupacional se engajam mais no trabalho (Bakker &

Sanz-Vergel, 2013; Guarnaccia et al., 2016; Skaalvik & Skaalvik, 2016).

Quanto maior o nível de engajamento, maior tende a ser o de produtividade (Eldor, 2017; Mäkikangas, Aunola, Seppälä, & Hakanen,2016).

CONFIABILIDADE

VALIDADE CONVERGENTE

Problematização

Autoeficácia ocupacional não produz interesse (Tracey, 2009). Ao contrário, é o interesse no trabalho (motivação intrínseca) que tende a levar o indivíduo se dedicar, a se aperfeiçoar e a se tornar competente e autoeficaz no exercício profissional (Bonitz & Larson, 2010; Rottinghaus, Larson, & Borgen, 2003).

CONFIABILIDADE

VALIDADE CONVERGENTE

Problematização

Testar validade convergente por meio de correlação não garante que o instrumento mede,

de forma adequada, o construto o qual se propõe.

Instrumento necessita portanto de excelentes evidências de validade de conteúdo

  • A ‘garantia’ está mais na validade de conteúdo do que na própria validade convergente. CONFIABILIDADE

VALIDADE CONVERGENTE

Problematização

A testagem de validade convergente por meio de correlações é amplamente utilizada na

Psicologia

Técnica é limitada.

Testes de correlação não são capazes de definir a rede nomológica de um construto, já que

não se pressupõe direcionalidade entre as variáveis

Apenas a informação que ambos os construtos se influenciam mutuamente.

O construto “Engajamento no trabalho” poderia ser substituído por algum outro construto

relacionado, e a correlação poderia se manter.

CONFIABILIDADE

VALIDADE DISCRIMINANTE

Duas variáveis que teoricamente não se relacionam, empiricamente não devem se relacionar também.

Relacionamento Interpessoal

Raciocínio Lógico

Espera-se que o nível de correlação seja baixo ou nulo (*r** < 0,30; r*2 = 0,09)

  • Depende do construto

VALIDADE DE CRITÉRIO

  • Busca atestar a validade da medida por meio de critérios externos Se** ****subdivide**** ****em:**

Concorrente

  • A mesma variável avaliada por duas medidas distintas (ex: Duas medidas de transtorno de pânico) Preditiva

  • Predição de comportamento futuro CONFIABILIDADE

VALIDADE DE CRITÉRIO

Concorrente

  • A mesma variável avaliada por duas medidas distintas (ex: Duas medidas de transtorno de pânico) Depressão

II

Pode ser feito por correlação

Espera-se que o nível de correlação seja alta (*r** > 0,70; r*2 = 0,49)

Alto nível de variância compartilhada (r2)

(AERA et al., 2014)

Depressão

I

Depressão

I Depressão

II

CONFIABILIDADE

VALIDADE DE CRITÉRIO

Preditiva

  • Avalia o grau em que o desempenho em um teste prediz os resultados em outro teste ou situação Atenção concentrada Inteligência Habilidades técnicas Equilíbrio Corporal Índices de Psicopatia

Acidentes no trânsito Desempenho acadêmico Desempenho profissional Queda em Idosos Comportamentos Violentos

CONFIABILIDADE

EVIDÊNCIAS BASEADAS NO PROCESSO DE RESPOSTA

VALIDADE BASEADA NO PROCESSO DE RESPOSTA

Validade baseada no processo de resposta

  • Avaliações teóricas e empíricas sobre a forma como os participantes respondem a escala e seus processos envolvidos

EVIDÊNCIAS BASEADAS NO PROCESSO DE RESPOSTA

VALIDADE BASEADA NO PROCESSO DE RESPOSTA

Validade baseada no processo de resposta

  • Avaliações teóricas e empíricas sobre a forma como os participantes respondem a escala e seus processos envolvidos

    • Grupo focal
    • Entrevista cognitiva (Think aloud Protocol)
    • Rastreamento ocular (*Eye-**tracking*)
    • Tempos de resposta
  • Se a resposta do sujeito é teoricamente/empiricamente plausível (esperada)

    • Grupo de crianças mais velhas erram mais em um teste de inteligência que crianças mais novas
    • Inconsistência de respostas → Chute → Dificuldade na compreensão do enunciado
    • *Differential Item Functioning** *(DIF) como medida empírica para avaliar o ajuste entre os níveis de habilidade da amostra e o processo de resposta ao item EVIDÊNCIAS BASEADAS NO PROCESSO DE RESPOSTA

VALIDADE BASEADA NO PROCESSO DE RESPOSTA

O que é DIF

  • DIF acontece quando dois sujeitos que tem o mesmo nível de traço latente respondem de maneira diferente ao item

    • Algo externo ao construto está ‘impactando’ na resposta ao item
    • ‘Choro frequente’ em escalas de depressão EVIDÊNCIAS BASEADAS NO PROCESSO DE RESPOSTA

VALIDADE BASEADA NO PROCESSO DE RESPOSTA

INFIT e OUTFIT

  • Infit → Pessoas com nível de traço latente equivalente à dificuldade do item não respondem como o esperado

    • Equivalência na proporção de pessoas que endossam e que não endossam o item
  • Outfit → Pessoas com nível de traço latente diferente da dificuldade do item não respondem como o esperado

    • Theta > Dificuldade: Espera-se que as pessoas endossem os itens
    • Dificuldade > Theta: Espera-se que as pessoas não endossem os itens EVIDÊNCIAS BASEADAS NO PROCESSO DE RESPOSTA

VALIDADE BASEADA NO PROCESSO DE RESPOSTA

Desordenação de Thresholds

EVIDÊNCIAS BASEADAS NO PROCESSO DE RESPOSTA

VALIDADE CONSEQUENCIAL

VALIDADE CONSEQUENCIAL

Validade** ****consequencial**

  • Avaliar as consequências do teste e dos procedimentos da aplicação
  • Embora as consequências ou o uso dos escores de um teste não pareçam ter a ver com a validade do instrumento, é importante notar que a maioria dos testes tem um propósito de avaliação que poderá resultar em impactos na vida do sujeito avaliado
  • Aspecto ético da mensuração VALIDADE CONSEQUENCIAL

VALIDADE CONSEQUENCIAL

Validade** ****consequencial**

  • Detran aplica teste em um grande grupo, que requer muito tempo para corrigir
  • Não há tempo hábil para corrigir o teste
  • Resultado é dado sem respeitar os critérios científicos
  • Depressão em idosos
  • Medida usada para rastrear ou descrever os níveis de depressão na população em geral
  • Número muito reduzido de idosos
  • Redução nos programas comunitários de saúde mental para a terceira idade
  • Diminuição na cobertura de serviços de atendimento psicológico ofertados pelos planos de saúde, etc. VALIDADE CONSEQUENCIAL

VALIDADE CONSEQUENCIAL

Validade** ****consequencial**

  • As consequências da testagem como fonte de evidência de validade basicamente não existem na literatura profissional.
  • Assim, embora a AERA, APA e NCME (2014) já tenham postulado sobre a sua importância e necessidade, ainda é escasso ver esse tipo de discussão sendo realizado na prática (Cizek, Bowen, & Church 2010)

VALIDADE CONSEQUENCIAL

REFERÊNCIAS

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014).

*Standards for educational and psychological testing.** *Washington, DC: American Educational Research Association.

Bakker, A. B., & Sanz-Vergel, A. I. (2013). Weekly work engagement and flourishing: The role of hindrance and challenge job demands. Journal of Vocational Behavior, 83(3), 397-409. doi:10.1016/j.jvb.2013.06.008

Brown, W. (1910). Some experimental results in the correlation of mental abilities. British Journal of Psychology, 3, 296-322.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334. https://doi.org/10.1007/BF02310555 Eldor, L. (2017). Looking on the Bright Side: The Positive Role of Organisational Politics in the Relationship between Employee Engagement

and Performance at Work. Applied Psychology, 66, 233-259. doi:10.1111/apps.12090

Fornell, C., & Larcker, D. F. (1981). Evaluating structural equations models with unobservable variables and measurement error. Journal of Marketing, 18(1), 39-50. doi:10.2307/3151312

Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160. https://doi.org/10.1007/BF02288391

Mäkikangas, A., Aunola, K., Seppälä, P. and Hakanen, J. (2016), Work engagement-team performance relationship: shared job crafting as a

moderator. Journal of Occupational and Organizational Psychology, 89, 772-790. doi: 10.1111/joop.12154

REFERENCIAS

REFERÊNCIAS

Messick, S. (1980). Test validity and the ethics of assessment. American Psychologist, 35, 1012-1027.

Nunes, C. H. S. S., & Primi, R (2010). Aspectos técnicos e conceituais da ficha de avaliação dos testes psicológicos. Em Conselho Federal de Psicologia - CFP (Org.), Avaliação psicológica: diretrizes na regulamentação da profissão (pp. 101-128). Brasília: CFP.

Raykov, T. (1997). Estimation of composite reliability for congeneric measures. Applied Psychological Measurement, 21(2), 173-184.

Skaalvik, E. M., & Skaalvik, S. (2016). Teacher Stress and Teacher Self-Efficacy as Predictors of Engagement, Emotional Exhaustion, and

Motivation to Leave the Teaching Profession. *Creative** Education, 7*, 1785-1799. doi: 10.4236/ce.2016.713182 Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 3, 271-295.

Schweizer, K. (2011). On the changing role of Cronbach’s α in the evaluation of the quality of a measure [Editorial]. European Journal of Psychological Assessment, 27(3), 143-144. https://doi.org/10.1027/1015-5759/a000069 Cizek, G. J., Bowen, D., & Church, K. (2010). Sources of validity evidence for educational and psychological tests: A follow-up study. Educational and Psychological Measurement, 70(5), 732-

Urbina, S. (2007). Fundamentos da testagem psicológica. Porto Alegre: Artmed.

REFERENCIAS

Obrigado!

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)